Pengantar Pemodelan Generatif: Melampaui Diskriminasi

Kita sedang beralih dari pemodelan diskriminatif, yang menyelesaikan tugas klasifikasi dan regresi dengan mempelajari probabilitas bersyarat $P(y|x)$, menuju bidang yang lebih kompleks yaitu pemodelan generatif. Tujuan utama kita kini berubah menjadi estimasi densitas: mempelajari distribusi data dasar yang lengkap, yaitu $P(x)$ itu sendiri. Perubahan mendasar ini memungkinkan kita menangkap ketergantungan yang rumit dan struktur kompleks dalam dataset berdimensi tinggi, melampaui pemisahan batas semata hingga mencapai pemahaman dan sintesis data yang sejati.

1. Tujuan Generatif: Memodelkan $P(x)$

Tujuan dari model generatif adalah untuk memperkirakan distribusi probabilitas $P(x)$ dari mana data pelatihan $X$ berasal. Model generatif yang sukses dapat melakukan tiga tugas penting: (1) Estimasi Densitas (memberikan skor probabilitas pada input $x$), (2) Pengambilan Sampel (menghasilkan titik data baru sepenuhnya $x_{new} \sim P(x)$), dan (3) Pembelajaran Fitur Tak Berlabel (menemukan representasi yang bermakna dan terpisah dalam ruang laten).

2. Taksonomi: Likelihood Eksplisit vs. Implisit

Model generatif pada dasarnya dikategorikan berdasarkan pendekatannya terhadap fungsi likelihood. Model Densitas Eksplisit, seperti Autoencoder Variasional (VAEs) dan Model Aliran, mendefinisikan fungsi likelihood matematis dan berusaha memaksimalkannya (atau batas bawahnya). Model Densitas Implisit, yang paling terkenal adalah Jaringan Adversarial Generatif (GANs), menghindari perhitungan likelihood sama sekali, melainkan mempelajari fungsi pemetaan untuk mengambil sampel dari distribusi $P(x)$ menggunakan kerangka pelatihan adversarial.

Sintesis Data dan Interpolasi Fitur

Generative models demonstrate their capability by generating novel, high-fidelity instances (e.g., unseen faces, complex textures) or by allowing semantic interpolation in the learned latent space, illustrating the model's grasp of data variability.

Examples of AI-generated faces and interpolated features.

Pertanyaan 1

Dalam pemodelan generatif, apa distribusi utama yang menjadi perhatian?

$P(x)$

$P(y|x)$

$P(x|y)$

$P(y)$

Pertanyaan 2

Tipe model generatif mana yang bergantung pada pelatihan adversarial dan menghindari definisi fungsi likelihood eksplisit?

Autoencoder Variasional (VAE)

Model Autoregresif

Jaringan Adversarial Generatif (GAN)

Model Campuran Gauss (GMM)

Tantangan: Deteksi Anomali

Memanfaatkan Estimasi Densitas

Sebuah lembaga keuangan telah melatih model generatif densitas eksplisit $G$ pada jutaan catatan transaksi yang sah. Transaksi baru $x_{new}$ tiba.

Tujuan: Menentukan apakah $x_{new}$ merupakan anomali (penipuan).

Langkah 1

Berdasarkan estimasi densitas $P(x)$, ukuran statistik apa yang harus dievaluasi untuk $x_{new}$ agar dapat ditandai sebagai anomali?

Solusi:
Model harus mengevaluasi probabilitas (atau likelihood) $P(x_{new})$. Jika $P(x_{new})$ turun di bawah ambang batas tertentu $\tau$, artinya titik baru tersebut sangat tidak mungkin secara statistik di bawah distribusi yang telah dipelajari dari transaksi normal, maka akan ditandai sebagai anomali.